Intruder Dimensions
主要な発見:「Intruder Dimensions」の存在
論文の分析によって、LoRA でファインチューニングしたモデルには、Intruder Dimensions と呼ばれる新たな次元が現れることがわかりました。
Intruder Dimensions の特徴:
事前学習モデルの特異ベクトルとは直交する新たな特異ベクトルが発生します。
特にランク ( r ≦ 8 ) の低ランク設定で顕著に現れます。
Full Fine-Tuning では、このような現象はほとんど観察されません。
パフォーマンスへの影響:
Intruder Dimensions を持つモデルは、事前学習の知識を忘れやすく、継続学習での性能が低下します。
一般化性能も低下し、未知のデータに対する予測精度が下がることが確認されました。
3. 実験結果と推奨パラメータ設定
実験結果
RoBERTa-base や LLaMA/LLaMA-2 などのモデルで、6 つの異なる分類タスクを通じて比較。
データセットが大きいほど、Intruder Dimensions の影響が増加する傾向が見られました。
ランク ( r = 64 ) の設定は、Full Fine-Tuning に近い性能を示し、メモリ消費を抑えながら効率的な学習が可能でした
Q.
端的につまりどういうことなんだってばよ?
A.(主にllmでの調査で画像生成等にそのまま適用されるかはわからないものの)
ランク(dim)8以下のLoRAはモデルの性能を悪化(事前知識の忘却、汎用性の低下)させやすいよ!
悪化は累積しやすいから特にマージして新しいモデルを作りたいときに悪手だよ!
ランク(dim)64なら概ねフルファインチューンと変わらない性能を得られるよ!メモリ効率も十分(フルファインチューンに比べて)優れているよ!
取り敢えず迷ってリソースが許すなら64にしとくと良さそうだよ!